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基于 改进 YOLOv2 的 无 标定 3D 机 械 名 自主 抓 取 方 法 
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(上 海 理工 大 学 a. 光 电信 息 与 计算 机 工程 学 院 ;b. 理 学 院 ， 上 海 200093; ) 


摘 要 : 提出 了 一 种 多 物体 环境 下 基于 改进 YOLOv2 的 无 标定 3D 机 械 辟 自主 抓 取 方法 。 首 先 为 了 降低 深度 学 习 算 
法 YOLOVv2 检测 多 物体 边界 框 重合 率 和 3D 距离 计算 误差 ,提出 了 一 种 YOLOYv2 改进 的 算法 。 利 用 此 算法 对 图 像 中 
的 目标 物体 进行 检测 识别 , 得 到 目标 物体 在 RGB 图 像 中 的 位 置信 息 ; 然后 根据 深度 图 像 信 息 使 用 K-means++ 聚 类 算 
法 快速 计算 目标 物体 到 摄像 机 的 距离 ， 估 计 目 标 物体 大 小 和 姿态 ， 同 时 检测 机 械 手 的 位 置信 息 ， 计 算 机 械 手 到 目标 
物体 的 距离 ; 最 后 根据 目标 物体 的 大 小 、 姿 态 和 到 机 械 手 的 距离 ， 使 用 PID 算法 控制 机 械 手 抓 取 物体 。 提 出 的 改进 
YOLOv2 算法 获得 了 更 精准 的 物体 边界 框 ， 边 框 交集 更 小 ， 提 高 了 目标 物体 距离 检测 和 大 小 、 姿 态 估 计 的 准确 率 。 

为 了 避免 了 繁杂 的 标定 ， 提 出 无 标定 抓 取 方 法 ， 代 替 了 基于 雅克 比 给 阵 的 无 标定 估计 方法 ， 通 用 性 好 。 实 验 验证 了 
提出 的 系统 框架 能 对 图 像 中 物体 进行 较为 准确 的 自动 分 类 和 定位 ， 利 用 Universal Robot 3 机 械 臂 能够 对 任意 摆 放 的 
物体 进行 较为 准确 的 抓 取 。 

关键 词 : 改进 YOLOv2; 无 标定 ; PID 控制 ; 机 械 壁 抓 取 
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3D uncalibrated robotic grasping method based on improved YOLOv2 


Yu Yugin?, Wei Guoliang^, Wang Yongxiong? 
(a. School of Optical-Electrical & Computer Engineering, b. College of Science, University of Shanghai for Science & 
Technology, Shanghai 200093, China) 


Abstract: This paper proposed an uncalibrated 3D robotic arm grabbing method based on improved YOLOv2 in a 
multi-object environment. Firstly, in order to reduce the depth learning algorithm YOLOv2 detection multi-object bounding 
box overlapping rate and 3D distance calculation error. It proposed an improved algorithm for YOLOv2. Using this 
algorithm to detect and identify the target object in the image, obtain the position information of the target object in the 
RGB image, and then use the k-means++ clustering algorithm to quickly calculate the distance from the target object to the 
camera according to the depth image information, and estimate the target object size and pose. Simultaneously, use the 
improved YOLOv2 to get the bounding box of the gripper and calculate the distance from the robot to the target object. 
Then the system estimates the distance between the fixture, camera and object in the manipulator coordinate system. Finally, 
the system uses the PID algorithm to control the gripper to grab the object according to the size and posture of the object 
and the distance from the object to the gripper. In this paper, the detected boundary boxes of the target object is more 
accurate based on the improved YOLOv2 than on old one. It also enhances the distance from the fixture to the object and the 
size of the object as well as the accuracy of the pose estimation. In addition, in order to avoid complicated calibration, this 
paper proposes a non-calibration method. This learning scheme is different from the traditional uncalibrated estimation 
method based on Jacobian matrix, because it has good universality. A simulation experiment shows that the proposed 
method can accurately classify and locate the objects in the image, The Universal Robot 3 robotic arm uses this framework 
to verify the effectiveness of capturing objects in a cluttered environment. 

Key words: improved YOLOv2; uncalibration; PID control algorithm; robotic grasping 


基于 视觉 的 智能 机 械 臂 物体 抓 取 具 有 广泛 的 应 用 场景 和 机械 臂 的 位 置 相 对 固定 ， 目 标 物 体 单一 且 位 姿 固 定 ; 1 


引言 在 传统 的 机 械 臂 物体 抓 取 中 ， 对 位 姿 固 定 的 单 目标 物体 
各 采用 人 工 示 教 的 方式 抓 取 。 在 常规 的 视觉 伺服 中 ， 摄像 机 和 
于 不 


较 高 的 应 用 价值 , 物品 分 拒 、 垃 圾 分 拒 就 是 

统 的 垃圾 分 拣 工作 采用 人 工分 拣 的 形式 ， 有 些 电 子 垃圾 、 化 ”传统 机 械 辟 系统 的 物体 抓 取 方法 具有 诸多 不 确定 性 ， 只 和 
品 垃圾 对 人 体 危害 较 大 。 基 于 视觉 的 智能 机 械 臂 系统 可 自 ”特定 环境 下 使 用 。 多 个 物体 存在 、 物 体 的 种 类 不 
动 识 别 不 同 种 类 、 不 同 大 小 的 垃圾 ， 分 辨 出 可 再 利用 部 分 同 、 物 体 的 位 姿 变化 、 摄 像 机 和 机 械 臂 的 相对 位 置 不 固定 等 
动 实现 分 拣 。 因此 可 用 于 快递 分 拣 、 工 三 流水 线 上 的 零件 ”问题 使 得 传统 视觉 机 械 臂 系统 无 法 完成 复杂 的 抓 取 任务 。 
E 复 单调 的 工作 ， 同 为 了 能 够 在 自然 环境 中 实现 自主 物体 抓 取 ,研究 人 员 不 
断 改 进 基 于 视觉 的 机 械 辟 物体 抓 取 方法 。 文献 [1 介绍 了 传统 
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摆 放 ， 逐 步 代 蔡 人 工 从 事 劳 动 强度 大 、 
样 也 是 工业 4.0 和 人 工 智能 的 主要 研究 方向 之 一 。 
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型 任务 。 传 ”能 自主 感知 工作 环境 、 物 体 类 别 、 形 状 、 尺 寸 和 位 姿 等 
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的 基于 图 像 二 值 图 位 置 检测 的 机 械 辟 物体 抓 


[2~4] 提 出 了 一 种 基于 雅 可 上 


是 在 实际 的 抓 取 任务 中 ， 
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取 方 法 ， 文 献 ” 取 。 此 方法 通用 性 好 。 使 用 机 器 学 习 方 法 获得 位 姿 信 息 ， 代 
矩阵 估计 的 视觉 伺服 控制 方案 ， 蔡 了 传统 的 无 标定 视觉 伺服 中 的 雅克 比 矩 阵 估计 ， 优 点 是 计 
以 上 方法 都 是 单个 物体 场景 下 ， 机 器 人 和 摄像 机 的 位 置 相对 算 简 便 ， 实 时 性 好 。 


取 的 物体 特征 鲁 棒 折 


2012 Œ, Hinton 课题 引 


在 ImageNet 图 像 识 


到 广泛 的 关注 ， 并 逐步 应 


计 物体 6D 姿态 ， 完 
觉 标 定 确定 摄像 机 和 机 械 臂 之 间 的 相对 位 置 
文献 [8] 提 出 了 一 种 基于 深度 学 习 无 标定 手 上 


他 们 使 用 了 6 到 14 


次 的 抓 握 尝 试 数据 集 ， 


固定 。 在 视觉 识别 阶段 ， 大 多 数 方法 还 是 手工 设 定 特征 ， 但 b) 改进 了 YOLOv2 算法 的 物体 边界 框 确定 方法 ， 改 进 
标 物体 的 大 小 、 形 状 、 外 部 光照 ”后 检测 出 的 目标 物体 边界 框 与 邻近 物体 边界 框 的 交集 更 小 ， 


强度 、 角 度 变 化 和 采样 角度 不 确定 ， 传 统 的 特征 提取 方法 提 ” ”提高 了 目标 物体 到 摄像 机 之 间距 离 的 计算 精度 ， 进 而 提高 J 
E 差 ， 不 能 适应 新 物体 和 多 变 的 环境 。 物体 的 姿态 估计 精度 和 大 小 估计 精度 。 
日 使 用 深度 学 习 方法 AlexNetP!, c) 相 比 于 传统 的 人 工 特征 提取 方法 , 采用 改进 YOLOv2 


别 比赛 中 夺 得 冠军 , 此 后 深度 学 习 迅 速 受 ”方法 学 习 目标 物体 的 特征 ， 借 助 深度 学 习 预 训练 ， 能 够 适应 


于 单个 物体 场景 ， 无 法 在 多 个 物体 


于 机 械 辟 物体 抓 取 领 域 。 文 献 [6] 没有 经 过 训练 的 新 物体 , 具有 较 高 的 泛 化 能 力 和 稳定 性 。 相 


提出 在 抓 取 姿 态 不 确定 的 情况 下 ， 使 用 卷 积 神经 网 络 学 习 寺 比 于 传统 的 抓 取 位 置 检测 的 方法 ， 利 用 图 像 信 息 和 深度 信息 


成 物体 抓 取 。 


取 函 数 ， 此 方法 泛 化 能 力 强 、 能 够 适应 新 物体 ， 但 都 只 适用 ”进行 无 标定 PID 控制 ， 避 免 了 摄像 机 和 机 械 臂 基 座 之 间 相 对 


n 


CERA ELINE PMH o 位 置 的 繁复 标定 。 相 对 于 大 规模 数据 集 的 手眼 协调 无 标定 抓 
忆 此 ， 研 究 人 员 提 出 了 多 个 物体 杂乱 共存 环境 下 的 物体 抓 取 取 方 法 由 ， 避 免 使 用 成 本 高 昂 的 设备 收集 数据 集 ， 此 方法 和 
方法 。 文 献 [7] 提 出 基于 深 


抓 取 物体 。 此 方法 泛 化 能 力 强 , 但 此 方法 的 数据 身 


K, RAM, FE 


针对 多 目标 、 环 境 杂乱 、 物 体位 姿 不 固 


方法 只 适 月 


日 于 某 一 特定 型 号 的 机 械 臂 。 法 主要 包括 三 部 分 : 物体 检测 算法 、 目 标 物体 姿态 和 大 小 估 
固定 、 大 小 不 固定 、 ” 计 、 物 体 抓 取 控制 。 首 先 使 用 摄像 机 采集 目标 物体 的 彩色 图 


度 学 习 的 多 视图 、 自 监督 方法 来 估 人 类 抓 取 物 体 的 方法 更 相似 ,实现 过 程 更 经 济 、 更 快捷 ， 符 
此 方法 需要 通过 繁杂 的 视 。 合 人 工 智能 自主 抓 取 的 理念 。 
针对 此 问题 ， — 
emu. 。 1 系统 框架 和 流程 
个 机 器 人 ， 经 历 3 个 月 收集 了 超过 80 万 系统 框架 及 算法 流程 如 图 1 所 示 。 该 系统 主要 包括 
训练 了 一 个 深层 卷 积 网 络 控制 机 械 臂 RBG-D 摄像 机 〈Kinect2.0) 和 UR3 WREE, AJE EE 
收集 难度 ”工作 台 一 端 ， 摄 像 机 成 像 平面 垂直 于 工作 台 桌 面 。 此 抓 取 方 


摄像 机 和 机 械 臂 相对 位 置 不 国定 的 抓 
种 YOLOv2 改进 的 算法 ， 实 现 杂乱 ] 
测 ， 克 服 原 算法 检测 物体 框 重 压 率 过 


E 


Fi 


测 机 械 手 的 边界 框 


n 


然后 使 用 K-means- 
摄像 机 、 机 械 手 和 物体 三 者 之 间 昌 


a) 提 出 了 一 个 


3D 机 械 臂 抓 取 框架 


全 新 的 基于 机 器 视觉 


RK 


取 环 境 ， 本 文 提出 了 一 像 和 深度 图 像 ,将 RGB 图 像 输 入 到 改进 YOLOv2 物体 检测 
环境 中 多 物体 的 自动 检 ”算法 中 ， 检 测 并 识别 系统 空间 下 各 个 物体 的 类 别 、 目 标 物 体 
高 等 问题 ， 并 识别 物体 Æ RGB 图 像 中 的 位 置 和 边界 框 ; 然后 结合 深度 图 像 使 用 
的 类 别 ， 估 计 目 标 物体 的 边界 框 信息 、 大 小 和 姿态 ， 同 时 检 ”KK-means++ 聚 类 算法 快速 计算 目标 物体 到 摄像 机 的 距离 ， 根 
算法 快速 计算 据 目 标 物体 的 距离 和 边界 框 估计 目标 物体 的 姿态 和 大 小 ; 通 
的 距离 ， 最 后 根据 目标 物体 ”过 使 用 聚 类 算法 实时 计算 机 械 手 到 摄像 机 的 距离 ， 获 得 目标 
的 大 小 、 姿 态 及 机 械 手 到 目标 物体 的 距离 ， 使 用 PID 控制 算 ”物体 和 机 械 手 在 机 械 臂 坐标 系 XR 方向 上 的 距离 。 依 据 RGB 


法 控制 机 械 手 抓 取 物体 。 本 方法 的 创新 性 如 下 : 


图 像 计算 目标 物体 和 机 械 手 在 机 械 臂 坐标 系 YR 方向 上 的 距 


0 机 器 学 习 的 无 标定 。 离 。 最 后 根据 目标 物体 的 大 小 和 姿态 调节 机 械 手 ， 采用 以 


日 深度 学 习 检测 物体 ,获取 物体 XR 和 YR 方向 上 的 距离 作为 输入 的 PID 闭环 控制 算法 实现 


， 首 先 使 月 


大 致 位 姿 ， 再 采用 K-means++ 聚 类 算法 计算 摄像 机 、 机 械 臂 ”机械 臂 抓 取 物 体 。 


和 物体 三 者 之 间 的 昌 


目标 物体 姿态 、 大 小 估计 算法 流程 图 


k-means++ 目标 物体 到 
聚 类 算法 摄像 机 的 距离 


物体 检测 方法 


目标 物体 姿态 、 大 小 估计 算法 流程 图 


机 械 臂 坐标 系 
Zr 


1、 目 标 物体 姿态 估计 
2 


、 目 标 物体 大 小 估计 DA 


Vv 
Yn 


E 离 ， 最 后 利用 PID 控制 方法 实现 物体 抓 


物体 抓 取 控制 算法 流程 图 


1、 抓 手 在 图 像 中 的 位 置 k-meanst++ 
2、 抓 手 到 摄像 机 的 距离 聚 类 算法 
Ho 摄像 机 坐标 系 

L| Yc 


改进 YOLOv2 
物体 检测 方法 


UR3 
控制 器 | 人 
图 1 实验 框架 及 PID 算法 流程 


Fig. 1 Experimental framework and algorithm flow 
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2 ”目标 检测 算法 


经 典 的 
10 在 图 像 中 搜索 1k~2k 个 候选 框 , EEH 
模型 提取 特征 。 每 一 个 候选 框 都 需要 输入 到 


标 检 测算 法 (R-CNN)I 首 先 用 选择 


: 基于 改进 YOLOv2 的 无 标定 3D 机 械 臂 自主 抓 取 方法 


性 搜索 方法 


CNN 模型 中 提 


取 特 征 ， 上 千 个 候选 框 存在 大 量 的 范围 重 受 ， 
取 产 生 巨 大 的 计算 量 ， 使 得 目标 检测 不 
Faster-RCNNIT 实 现 了 较 快 速 的 目标 检测 ， 


大 ， 无 法 达到 实时 检测 目标 。 


此 方法 提高 J 
标 检测 的 精度 和 速度 ， 但 是 候选 框 的 生成 和 分 类 过 程 计算 量 


重复 的 特征 提 
备 实时 性 。 


只 神经 网 络 (CNN) 
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框 数 日 ， 此 处 B=5 ，j 为 网 格 单元 预测 的 边界 框 索引 。 
示 目 标 是 否 出 现在 网 格 单元 i 中 , 1 xeu demo i rpm 


个 边界 框 预测 器 负责 该 网 格 单元 的 目标 预测 ， 


第 37 卷 第 5 期 


px 


L3 


第 7 


"" 表示 网 格 


单元 ;中 的 第 7 个 边界 框 预测 器 不 负责 该 网 格 单元 的 目 


文献 [12] 提 出 了 YOLO 物体 检测 方法 ， 此 算法 将 物体 检 


测 任务 当做 一 个 回归 问题 来 处 理 ， 
网 络 ， 此 方法 的 优点 是 检测 物体 
背景 错误 、 学 习 物 体 的 泛 化 特征 ， 


HIR 


将 整 张 图 片 输 入 到 YOLO 
速度 很 快 ， 能 够 有 效 的 避免 
但 其 物体 检测 精 


度 低 ， 对 


于 密集 的 小 物体 检测 效果 这 
检测 速度 快 和 检测 
物体 检测 算法 。 


使 用 VOC 


VOC 数据 集训 练 Faster R-CNN 模型 ， 


抓 取 任 务 中 的 
2.1 


标 检测 模型 。 
YOLOv2 目标 检测 模型 


YOLOv2 的 分 类 网 络 是 Darknet - 19 网 络 模型 , 由 19 个 
卷 积 层 和 5 个 池 化 层 组 成 ， 大 多 使 用 3x3 的 滤波 器 ， 
化 操作 后 使 通道 数 加 倍 ， 使 用 全 局 平均 池 化 做 预测 04， 


。 为 了 让 目标 检测 算法 同时 具备 
青 度 高 的 优点 ， 文 献 [13] 提 出 了 YOLOv2 
数据 集训 练 YOLOv2 模型 ， 

mAP(mean average precision) 为 76.8， 检 测速 度 为 67FPS. 

mAP 为 732191, Ky 
测速 度 为 7FPS。YOLOv2 的 检测 精度 优 于 Faster R-CNN， 检 
测速 度 快 于 YOLO. 所 以 本 文 最 终 采 用 YOLOv2 作为 机 械 辟 


每 个 池 
使 用 


1x1 滤波 器 来 压缩 卷 积 之 间 的 特征 表示 053。 使 用 批 归 一 化 来 
稳定 训练 ， 加 速 收 敛 ， 并 正则 化 模型 19。YOLOv2 的 检测 网 
络 使 用 了 Anchor 预测 框 的 卷 积 层 , 并 且 使 用 k-means 聚 类 算 
法 优化 了 先 验 预测 框 的 选取 ,去 掉 了 全 连接 层 ,使 得 YOLOv2 
能 够 准确 快速 的 检测 物体 。 
YOLOv2 采用 多 任务 损失 来 最 小 化 目标 函数 ， 目标 函 
5» [G 7$) * Qi &Y] 
sAn „So [o -VW ) n, -Ji ] 
0) 
HELG - Ô) +4, wÈ IC, -C0.) 
DX È (O-A 
其 中 :i 为 元 预测 的 边界 


单元 网 格 的 索引 ， 8 表示 一 个 网 格 让 


图 2 


pe: 


化 的 宽度 和 高 度 ，(%) 为 图 片 中 物体 真实 边界 框 的 


点 ， 旋 有 为 物体 真实 边界 框 归 一 化 的 宽度 和 高 度 ，C 为 
的 单元 格 的 置信 率 ，6 为 真实 的 单元 格 的 置信 率 ，? 为 


的 物体 置信 率 ， 广 为 真实 的 物体 置信 率 。 
体 的 类 别 数 目 ， hr =5， how =0.5 。 
2.2 改进 的 YOLOYv2 目标 检测 模型 
YOLOv2 物体 检测 算法 输出 待 测 物体 边界 框 的 中 心 
图 像 的 位 置 os) 、 边 界 框 的 宽 4 与 高 h、 置 信和 率 P 。 


classes 为 待 检 


标 预 


dll, Gc») 为 中 心 点 的 归 一 化 偏 移 坐 标 ，w 分 别 为 边界 框 归 


rH 心 
预测 


预测 
测 物 


点 在 
在 自 


制 数 据 集中 ， 需 要 对 每 张 图 片 中 的 w 个 进行 标注 ， 标 注 
包括 各 类 物体 的 类 别 Classi 
E ts 及 边界 框 的 中 心 点 坐标 sb. ) ，i1:m， 边界 杠 
包含 物体 。 在 复杂 环境 下 检测 物体 ， 物 体 与 物体 之 间距 


各 类 物体 的 边界 框 的 长 4 


内 容 
E 
内 仅 
离 太 


近 时 ， 边 界 框 有 重合 部 分 。 重 合 率 过 高 时 ， 采 用 深度 信 


是 出 了 一 种 改进 的 YOLOv2 检测 模型 ， 将 原 YOLOv2 
的 边界 框 的 宽 与 高 分 别 缩小 Ks k fh. Kk. k WED 
F: 

a) 标 注 训 练 集中 多 张 图 
-—-— LLL o 

bo 使 用 原 YOLO v2 方法 检测 训练 集 N 物体 的 边界 
Lot, ;l-beN, 

c) 使 
k, ok ;j0ibeN , 


kpi Sfi IDEE 
ki x: Dy il ty rais i 


N 
k, = Èk jN 
1 


N 
k, -Xha j 


dìt 


片 N 个 物体 的 边界 框 


以 下 公式 计算 每 个 物体 的 边界 框 对 应 的 


息 计 


算 物 体 到 摄像 机 的 距离 会 产生 较 大 的 误差 ,为 了 解决 此 问题 ， 


输出 
法 如 


Hl 


框 的 


Q) 


3) 


改进 的 YOLOv2 模型 如 图 2 所 示 。 使 用 改进 的 YOLOv2 


方法 大 幅度 减 小 了 物体 间 边 界 框 的 重合 率 。 改 进 后 的 模型 


型 更 


加 适用 于 复杂 多 目标 下 的 目标 检测 。 


改进 后 的 效果 示意 


图 如 


图 3 所 示 。 


的 YOLOv2 网 络 结构 


Fig.2 Improved yolov2 network structur 
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YOLOv2 模型 检测 效果 示意 图 
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E 高 REX, 等 : 基于 改进 YOLOv2 的 无 标定 3D 机 械 臂 自主 抓 取 方法 卷 i 


YOLO v24 Eh FELT 


d) 


改进 后 的 YOLOV2 
输出 的 边界 杠 


1 


Fig. 3 nd yolov2 model detection effect 


3 ”物体 距离 和 物体 大 小 、 姿 态 估计 
3.1 基于 K-means++ 的 物体 距离 计算 


根据 等 式 可 以 计算 出 目标 物体 真实 的 宽度 为 


W, ouf. 
W, apa = =AL (9) 


object 


d, 


经 典 的 K-means 聚 类 算法 具有 聚 类 效果 不 佳 和 收敛 速度 
慢 等 问题 ， 难 以 保证 机 械 臂 抓 取 物体 的 实时 性 。 本 文选 用 
K-means++ 聚 类 算法 08。 它 采用 初始 中 心 点 彼此 尽 可 能 远离 
的 策略 来 解决 上 述 问 题 , 将 个 样本 点 聚 类 为 上 类 算法 如 下 ; 

初始 化 一 个 空 的 集合 M ， 用 于 存储 选 定 的 中 心 点 。 

a) 从 输入 样本 中 随机 选 定 第 一 个 中 心 点 Ims jede, 
并 将 其 加 入 到 集合 M 中 。 


b) 对 于 集合 M 之 外 的 任 一 样本 点 ieden, 通过 计 
算 找到 与 其 平方 距离 最 小 的 样本 d(x?,MY) 其 中 : 
d(x?, My - (x? — My =|x? -MİF (4) 
c) 计 算 每 个 样本 点 成 为 下 一 个 聚 类 中 心 的 概率 : 
P= AMY 
2,6 MY (5) 
按照 轮 盘 法 选择 出 下 一 个 聚 类 中 心 点 wm” ， 并 将 其 加 入 
到 集合 MM 中。 
d) 重 复 步 又 bjc)， 直 到 选 定 上 个 中 心 点 。 
e) 将 每 个 样本 点 划分 到 距离 它 最 近 的 中 心 点 uO 所 代表 


WERE o 
) 将 备 簇 中 所 有 样本 点 的 中 心 代 蔡 原来 的 中 心 点 。 
g) 重 复 步 又 e)f) 使 得 艇 内 误差 平方 和 SSE 最 小 , 直到 中 心 

点 不 变 或 者 达到 预期 迭代 次 数 时 ， 算 法 中 止 。 


nk 
i d [xo — uc? E (6) 


如 果 样 本 xe TJ . Mw ， 否 则 wD =0。 

本 文 首先 利用 改进 的 YOLOv2 得 到 目标 物体 的 边界 框 ， 
根据 边界 框 内 每 个 像素 对 应 的 深度 值 ， 基 于 上 述 K-means++ 
步骤 , 将 深度 值 快速 聚 类 为 三 类 ， 再 将 三 个 聚 类 中 心 值 按照 
升序 排列 ， 选 择 排序 第 2 的 聚 类 中 心 值 作 为 物体 到 摄像 机 的 
距离 。 

3.2 物体 的 大 小 、 姿 态 估计 
3.2.1 物体 大 小 估计 

根据 改进 YOLOv2 检测 的 目标 物体 边界 框 的 长 宽 
Pos s Dass ， 取 其 中 的 较 小 值 作为 目标 物体 在 图 像 。 坐 标 
系 中 的 宽度 值 为 


E Diss es Das w «B, object _h 
Wan Tp p eb, (1) 
object_h> Dobject_h © Pobjecı 


物体 大 小 估计 模型 如 图 4 所 示 ， 根据 相似 三 角 形 性 质 可 
以 列 出 如 下 等 式 : 


i.objea V r object 8 
PC uS (8) 


其 中 : f 为 摄像 机 的 焦距 。 


Wi object Ww r object 


et 一 
不 
1 
1 
| 


d, object 


图 4 物体 大 小 估计 模型 
Fig.4 Object size estimation model 
3.2.2 物体 姿态 估计 
基于 机 械 臂 有 三 种 抓 取 姿态 ， 本 文 将 目标 物体 的 姿态 也 
对 应 分 为 三 种 。 根据 改进 YOLOv2 检测 的 目标 物体 的 边界 框 


的 长 和 宽 分 别 为 bwen_w 和 bwins， 计 算 物 体 的 长 宽 比 rw 来 估 
计 目 标 物体 的 姿态 。 
Topject = [o f Paen (10) 
将 wa 分 为 三 段 ， 进 而 估计 出 目标 物体 的 姿态 : 
A Tobjet S f 
标 物 体 姿态 = SES (11) 
C Tobjet > Po 
其 中 : 5 为 分 段 系 数 ， 根 据 实验 经 验 可 得 。 三 种 抓 取 姿态 
如 图 5 所 示 。 
bovieot w 
boviject w 
Dobjeotiw 
ue bobject h 人 bobject n 
object 1 


抓 手 横向 垂 抓 手 平 行 
直 于 工作 台 于 工作 人 台 
(b) (c) 


图 5 物体 的 三 种 姿态 及 对 应 的 机 械 手 抓 取 状态 
Fig.5 Three poses of the object and the corresponding grabbing state 
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4 ”无 标定 闭环 抓 取 控 制 


RE, $ 


为 了 实现 快速 无 标定 的 视觉 物体 抓 取 ， 本 文 提出 采 / 
| 方法 实现 无 标定 闭环 抓 取 ， 主 要 包括 
a) 通过 改进 的 YOLOv2 算法 


PID ifl 


以 下 三 


检测 


[o x ~ Doea » ^ Debt 


Dua 及 


标 物体 的 类 


用 K-means++ € 
ess 


b) 根据 长 宽 比 rues 判断 


b, b, 


标 物体 的 姿态 ， 
机 械 手 的 抓 取 姿态 。 实 时 检测 机 械 手 的 边界 框 
bow ， 通 过 K-means--5X 到 类 算法 计算 出 


标 物体 的 边界 框 


dg] Classi. 


(—— 目标 物体 到 摄像 机 的 距离 


F: 


。 使 


根据 姿态 调整 


E 5 


机 械 手 到 摄像 机 的 距离 dos , 使 用 PID 控制 算法 控制 机 械 辟 
移动 ， 不 断 靠近 目标 物体 ， 直 到 误差 小 于 给 定 阔 值 。 

[buses 一 bois | < Thresh,ase 

| ld. 一 d, X Threshy ace (12) 
其 中 : Threshiuu 为 图 像 坐标 系 下 目标 物体 和 机 械 手 的 中 心 点 
的 误差 阔 值 ，Tpresuurme 为 摄像 机 坐标 系 下 目标 物体 和 机 械 手 
的 距离 差 闵 值 。 

c) 控制 机 械 臂 垂直 向 下 移动 到 距离 桌面 Jem 处 ， 根 据 
估计 的 物体 宽度 Ww 控制 机 械 手 闭合 ， 抓 取 物体 并 移动 到 
存放 物体 位 置 ， 打 开机 械 手 ， 完 成 抓 取 。 

为 了 使 机 械 臂 末端 到 达 目 标点 的 运动 时 间 最 短 ， 本 文 设 
置 机 械 臂 的 运动 速度 为 机 械 臂 能 够 承受 的 最 大 速度 ， 并 且 设 
置 机 械 臂 的 运动 路 径 为 直线 路 径 ， 即 机 械 臂 末端 以 最 大 速度 
沿 直线 从 当前 点 运动 到 目标 点 。 此 方法 减少 了 机 械 臂 末端 到 
达 目 标点 所 需 时 间 ， 提 高 了 机 械 臂 无 标定 闭环 抓 取 的 效率 。 

本 文 使 用 PID 控制 算法 控制 机 械 辟 移动 ， 计 算 期 望 机 械 
手 位 置 与 当前 机 械 手 位 置 差 值 ， 利 用 差 值 使 用 PID 控制 算法 
空 制 机 械 手 靠近 目标 物体 ， 再 次 计算 期 望 机 械 手 位 置 与 反馈 
可 来 的 当前 机 械 手 位 置 差 值 ， 使 用 PID 控制 算法 控制 机 械 手 
移动 ， 直 到 机 械 手 运动 到 目标 物体 正 上 方位 置 。 机 械 手 位 置 
图 如 图 6 所 示 。 

抓 手 当前 位 置 抓 手下 一 时 刻 位 置 ; 
(XnowsYnowsZnow) (Safian 

A A a. 

< tbi vnd p Sed e Gi is dio UE Ped es d 

d, 
Zn 

| Xe J 

Yr 目标 物体 


图 6 机 械 手 位 置 图 


Fig.6 Location of gripper 


机 械 手 在 机 械 辟 坐标 系 需 要 移动 距离 的 数学 表达 式 如 


T: 


| d, = (dij, ~d, 
d, = (bu, x — 


B. 
BP. PoP, Jy PID 
的 距离 成 正比 ， 即 


robotiq )P. 
boporig P, 


其 中 : d, 表示 机 械 手 在 机 械 臂 坐标 系 X 方向 上 需要 移动 的 距 
d, 表示 机 械 手 在 机 械 臂 坐标 系 丈 方向 E 
控制 算法 系数 ， 


Pz 和 标 


E i 
Ps = doas 


p's FU P, 根 据 实验 经 验 可 得 。 


如 下 : 


上 需要 移动 的 


(13) 


物体 距离 摄像 机 


(14) 


机 械 手 的 目标 位 


表达 式 


: 基于 改进 YOLOv2 的 无 标定 3D 机 械 臂 自主 抓 取 方法 


其 中 : xus 

位 

位 置 ， 

Bo x. 为 机 械 手 当 


为 
以 
Am 


5 


标 


使 
数 


JJ “battery” “cream 
robotiq”。 用 于 模型 训练 的 图 片 每 类 随机 各 选取 800 
张 ， 每 类 剩余 200 张 用 于 模 
5.1 


“sols 


VE. 


于 训练 


为 机 械 手 下 一 时 如 
D ye 为 机 械 手下 一 时 刻 的 在 机 械 臂 坐标 系 玖 方向 上 的 
zw 为 机 械 手 当前 时 妈 
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(15) 


next — J now 


的 在 机 械 臂 坐标 系 Xr 方向 上 的 


Amm 


在 机 械 臂 坐标 系 Xr 方向 上 的 位 
前 时 刻 在 机 械 臂 坐标 系 政 方向 上 的 位 


了 防止 机 械 手 触 碰 到 


在 机 械 手 到 
向 上 的 位 置 。 


标 物体 ， 改 变 了 目标 物体 位 置 ， 所 


达 目 标 物体 的 正 上 方 之 前 , 不 改变 机 械 手 在 Za 


实验 结果 及 分 析 


辟 抓 取 仿真 实验 环境 为 Ubuntu 16.04 系统 ， 摄 像 机 


本 实验 按照 PA 


环境 为 ROS Kinetic, 
K-means++ 聚 类 算法 与 PID 控制 算法 的 编程 环境 都 是 在 
准 Python 环境 IDLE 集成 开发 ] 


改进 YOLOv2 物体 检测 算 


不 境 中 进行 实验 。 
SCAL VOC 数据 集 格 式 自 建 数据 集 ， 用 


标 检测 模型 。 


用 摄像 机 采集 的 彩 


据 集 包 括 九 类 物体 ， 共 9 000 张 图 片 


» & 


仿真 实验 


5.1.1 目标 检测 实验 


ME 


所 


如 下 : 基础 学 习 率 为 0.001; 


45 


25000, 35000 ", JHXT-T- 258 
每 次 迭代 输入 的 图 片 数 量 (batch) 为 “64”， 
子 集 数目 subdivision 为 “8”; 动量 (momentum) 为 “0.9”; 


0.1, 0.1”; 


在 对 改进 的 YOLOv2 
显卡 GTX1080 对 训 


依赖 的 深度 学 习 届 


000; 学 习 率 的 衰 


数据 集 图 片 采 集 使 用 Kinect2.0， 仅 
色 图 像 。 在 目标 类 别 检测 阶段 ， 使 用 的 
其 中 九 个 类 别 分 别 


» 


gE 


»éd:. » 66 


jar" *chutty" “lotions” “bag” “box 


型 测试 。 


标 检 测 网 络 进行 训练 时 ， 使 用 
练 过 程 进 行 加 速 。 改 进 的 YOLOv2 模型 
匡 架 为 Darknet, 模型 训练 所 需 的 参数 设置 
最 大 迭代 次 数 (max_batches) 为 
各 (policy) 为 “steps”， 步 长 为 “100， 


减 策 


六 学 习 率 的 变化 nel 10, 
图 片 的 
权 


重 衰 减 率 (decay) 为 “0.0005” 训练 结果 如 图 7 所 示 。 图 7 中 ， 
(a) 中 的 损失 曲线 显示 该 模型 的 损失 函数 最 终 稳定 趋 于 0，(b) 
的 区 域 平均 IOU 曲线 显示 平均 IOU 稳定 在 0.7~0.85。 从 这 两 
晶 曲 线 图 可 以 看 出 ， 整 个 模型 的 检测 效果 较 好 。 

改进 YOLOv2 目标 检测 算法 的 检测 速度 约 为 0.014 592 
s/ 张 。 目 标 检测 实验 结果 如 图 8 所 示 。 目 标 检测 实验 准确 率 
如 表 1 所 示 。 检 测 结果 显示 : 在 多 物体 共存 环境 下 ， 未 改进 
的 YOLOv2 检测 得 到 的 物体 的 边界 框 重 合 部 分 很 大 , 改进 后 
YOLOv2 检测 得 到 的 边界 框 重 合 部 分 极 小 。 
5.1.2 目标 物体 到 摄像 机 距离 计算 

图 9 为 使 用 K-means++ 聚 类 算法 对 “sols” 目 标 物 体 边 


Ir 


框 对 应 的 深度 值 进行 聚 类 的 结果 图 


， 第 一 类 中 心 值 为 


595 mm, 第 二 类 中 心 值 为 603 mm, 第 三 类 中 心 值 为 612 mm, 


选择 第 二 类 中 心 值 603 mm 作为 


距 


边 
小 
标 
到 
大 | 


出 的 图 像 中 


离 。 


标 


V “sols” SIE PLI] 


在 多 物体 环境 下 ， 
目标 物体 的 类 别 、 
将 预测 


界 框 的 长 和 宽 。 
降序 排列 ， 选 取 


首先 根据 改进 的 YOLOYv2 检测 识别 
信 率 、 和 边界 框 的 中 心 坐标 、 
的 物体 去 除 机 械 手 ， 按 照 置 信 率 大 


信 率 最 高 的 物体 作为 目标 物体 ， 根 据 目 


物体 的 边界 框 信息 ， 利 


] K-means++ 聚 类 算法 计算 该 物体 


摄像 机 的 距离 ， 
Aste MODUS SERE (| 


物 


Bm 


保存 下 来 ， 避 免 


E MUERA 


台 需 要 将 


并 将 此 距离 和 物体 边界 框 信息 保存 下 来 。 
FP 机 械 辟 和 机 械 手 运动 可 能 会 遮挡 住 目标 
标 物 体 的 边界 框 信息 和 距离 信 


遮挡 引起 的 边界 框 误差 和 距离 误差 。 
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损失 曲线 
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(a) YOLOv2 模型 训练 过 程 的 损失 曲线 
(a)Loss curve during YOLOv2 model training 


> | $ 
(a) YOLOv2 检测 效果 图 1 
(a)Results of the YOLOv2 detection and identification 1 


(c)YOLOv2 检测 效果 图 2 


(c)Results of the YOLOv2 detection and identification 2 


图 7 YOLOv2 训练 过 程 损失 值 变 化 和 区 域 平 均 IOU 值 变化 


Fig.7 YOLOVv2 training process loss value curve and regional average IOU value curve 
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批 次 


250000 


(b) YOLOv2 模型 训练 过 程 的 区 域 平均 IOU 曲线 


(b)Regional average IOU 


curve of YOLOv2 model training process 


1 线 


(b) 改 进 后 的 YOLOv2 检测 效果 图 1 


(b)Improved YOLOv2 algorithm detection and recognition results 1 


(gd) 改进 后 的 YOLOv2 检测 效果 图 2 


(d)Improved YOLOv2 algorithm detection and recognition results 2 


图 8 物体 检测 结果 


Fig.8 Object detection result 


本 实验 环境 模拟 实际 工业 生产 环境 ， 实 验 台 周 围 布 置 了 


表 1 改进 YOLOv2 物体 检测 的 准确 率 
Table 1 Accuracy based on improved YOLO2 detection algorithm 
类 别  batterycream jar chutty lotions bag box sols robotiq 
准确 率 
($6) 81.9 80.2 87.5 94.0 95.1 95.7 96.1 95.54 93.86 


为 了 验证 改进 YOLOv2 能 够 有 效 提高 目标 物体 到 摄像 
机 距离 的 计算 精度 ， 本 文 使 用 两 类 物体 做 了 七 组 对 比 实验 ， 
物体 摆 放 位 置 如 图 8 (a) 所 示 ,“cream” 在 “lotions” 后 方 
距离 恒定 为 40mm, 放置 “lotions ”到 摄像 机 的 距离 为 :450mm， 
500 mm, 550mm, 600mm, 650mm, 700mm, 750mm. 
每 组 实验 的 距离 计算 了 五 次 ， 取 五 次 的 平均 值 作 为 最 终 的 距 
离 。 实 验 结果 如 表 2 所 示 。 根 据 表 2 计算 得 到 ， 使 用 改进 的 
YOLOv2 输出 的 边界 框 计 算 的 距离 平均 相对 误差 为 0.38%， 
平均 距离 绝对 误差 为 2.3257 mm. 
5.2 机械 臂 抓 取 实 验 
本 实验 不 需要 对 摄像 机 和 机 械 臂 的 相对 位 置 进行 繁杂 的 
标定 ， 不 需要 计算 目标 物体 在 机 械 辟 坐标 系 下 准确 的 3 维 位 
置信 息 ， 只 需要 确定 摄像 机 坐标 系 和 机 械 臂 坐标 系 的 关系 ， 
通过 计算 机 械 手 和 目标 物体 在 图 像 中 的 位 置 、 计 算 机 械 手 和 
目标 物体 到 摄像 机 的 距离 便 可 以 完成 抓 取 。 并 且 摄 像 机 在 工 
作 台 上 前 后 、 左右 移 动 适当 的 距离 不 影响 抓 取 ， 也 不 需要 调 
整 任何 参数 。 


很 多 的 干扰 物体 ， 这 些 干扰 物体 颜色 、 形 状 、 大 小 各 异 ， 


来 测试 本 文 提 出 方法 在 实际 工业 生产 环境 中 进行 物体 分 类 抓 


取 的 鲁 棒 性 。 抓 取 实验 采用 6 


度 人 机 协作 型 工业 机 械 辟 


UR3, 机 械 辟 实物 图 如 图 10 所 示 ， 机械手 采用 ROBOTI 二 


ERF. 


SOR TENLPUB AR E. AIRTER 600 mm 


的 可 到 达 范 围 内 任意 移动 。 摄 像 机 的 测 距 范 围 为 0.4 ~ 了 m, 


相机 和 目标 物体 的 距离 必须 超过 0.4m， 使 得 相机 能 够 “看 ” 


到 工作 台 的 全 部 即 可 。 


so1s 深 度 值 聚 类 结果 


wO mm 
中 心 2=603mm 
中 心 3=612mm 


g 
"TL 
ex 
f 600 
595 
590 i T 
0 500 
图 9 “sols” 


T T T T T 
1000 1500 2000 2500 3000 3500 


样本 点 (n) 


”目标 物体 深度 信息 的 聚 类 结果 


Fig.9 Clustering result of depth information of "sols" target object 
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表 2 距离 计算 的 对 比 实验 结果 


Table 2 Comparison of experimental results of distance calculation 
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组 别 1 2 3 4 5 6 7 
— cream 490 540 590 640 690 740 790 
实 mm 
lotions 450 500 550 600 650 700 750 
ENEE EE cream 490.57 510.45 557.19 612.67 657.06 739.59 755.90 
V. x ] mm 
d lotions 490.46 493.92 547.13 602.90 648.10 705.28 755.16 
Be cream 490.46 539.78 591.28 643.14 688.34 749.90 792.62 
V i id mm 
is E lotions 456.68 — 502.02 548.711 600.37 651.70 699.76 749.00 
cream 0.57 29.54 32.81 2733 3294 0.41 34.10 
YOLOv2 得 到 的 距离 绝对 误差 /mm 
得 到 的 中 高 绝对 误 lotions — 40.46 6.08 2.87 2.90 1.90 5.28 5.16 
—— EE A cream 0.46 0.22 1.28 3.14 1.66 9.90 2.62 
lotions 6.68 2.02 1.29 0.37 1.70 0.24 1.00 
OL tied co dc, cream 0.12 5.47 5.56 4.27 4.77 0.06 4.32 
lotions 8.99 1.21 0.52 0.48 0.29 0.75 0.69 
cream 0.09 0.04 0.22 0.49 0.26 1.33 0.33 
3t YOLOv2 得 到 的 距 对 误差 /% 
改 v2 得 到 的 距离 相对 误 莽 /% lotions 1.48 040 023 006 026 003 013 
实验 前 , 根据 摄像 机 放置 的 位 置 ， 图 像 坐标 系 的 坐标 靠近 目标 物体 的 方向 运动 ; 当 机 械 手 和 目标 物体 在 摄像 坐标 
轴 的 方向 与 机 械 臂 坐标 系 歼 坐标 轴 方 向 ， 摄 像 机 坐标 系 Ze 系 下 Ze 坐标 轴 方 向 上 的 距离 满足 以 下 条 件 时 ; 
坐标 轴 的 方向 与 机 械 臂 坐标 系 X。 坐标 轴 方 向 的 对 应 的 关系 
[dies =d robota | > Threshy, ance (17) 


已 确定 ， 即 当 机 械 手 和 目标 物体 的 边界 框 的 中 心 点 在 图 像 坐 
标 系 的 4 轴 方 向 上 的 距离 满足 以 下 条 件 时 : 


lbs _ x 一 | > Thr eshinase ( 1 6) 


Tz RINU E EWURE AA bs 8 F RY Ye Air 27 18] EE 


(a) 机 械 臂 的 初始 位 姿 ， 目标 物体 为 电池 


(a) Initial pose of the arm, the target object is the battery 


控制 机 械 臂 在 机 械 臂 多 
目标 物体 的 方向 运动 。 
取 步 又 如 第 4 章 a) ~c) 所 述 ， UR3 机 械 臂 抓 取 实验 


抓 


结果 如 图 10 所 示 。 


(人 b) 机 械 手 移动 到 


标 物体 的 了 


E 上 方 


(b) Gripper is directly above the target object 


(0) 机 械 手 抓 住 目标 物体 
(c) Grab the target object 


(d) 为 机 械 手 抓 起 目标 物体 
(d) Target object is being grabbed by the manipulator 


图 10 UR3 机 械 臂 抓 取 实验 结果 


Fig. 10 Grasping experiment results of URS robot 


6 ”结束 语 


本 文采 用 改进 的 YOLOv2 实现 了 在 杂乱 环境 下 对 不 同 
种 类 、 不 同 尺 寸 的 物体 分 类 和 定位 ， 利 用 K-means++ 聚 类 算 
法 获得 目标 物体 到 摄像 机 距离 ， 并 提高 了 目标 物体 大 小 、 姿 
态 和 目标 物体 到 机 械 手 距离 的 估计 精度 ， 最 后 使 用 无 标定 的 
PID 控制 方法 实现 抓 取 ， 避 免 了 繁杂 的 标定 。 在 多 目标 、 环 


境 杂 乱 、 目 标 物 体位 姿 、 大 小 不 固 
定 的 抓 取 环境 下 ,实验 验 
目标 物体 实现 较为 ; 
方向 是 优化 本 文 方法 ， 包 括 使 / 
辟 路 径 
A, de 


位 置 不 固 
方法 能 够 对 


的 数据 集 标注 框 优化 、 机 械 


& 标 系 下 的 Xe 轴 方 向 上 朝 着 靠近 


定 、 摄 像 机 和 机 械 辟 相对 
证 了 改进 的 YOLOv2 检测 
住 确 分 类 逢 


0 定位。 未 来 的 研究 


优化 等 ， 提 高 检测 物体 的 稳定 性 ， 增 加 数据 集 物体 种 


高 抓 取 速度 ， 将 该 技术 


EHF 


l| Sz f ^ pH 


H 
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